메뉴

#분산 아키텍처

MP
MarkTechPost 41일 전
IMP 8

문샷 AI, 멀티 데이터센터 LLM 서빙 혁신

문샷 AI와 칭화대 연구진이 대규모 언어 모델(LLM)의 추론 방식을 혁신하는 멀티 데이터센터 서빙 아키텍처 'PrfaaS(Prefill-as-a-Service)'를 제안했습니다. 이 아키텍처는 연산 집약적인 프리필(Prefill) 작업을 별도의 클러스터로 분리하고, 하이브리드 어텐션 모델을 통해 크게 감소된 KVCache를 일반 이더넷망으로 전송하여 54% 높은 처리량을 달성합니다.

LLM 서빙 KVCache 분산 아키텍처